Processing math: 100%

狸花猫记 (1): 模型基础

强化学习在机器学习中的位置

  • 与监督学习相比,数据有时间关系,奖励值延迟
  • 与非监督学习相比,数据有时间关系,输出奖励值

强化学习建模

Zq5uRJ.png

强化学习要素

三个基本要素

  1. 环境状态 St
  2. 动作 At
  3. 环境的奖励 Rt,这是 延迟的,在状态 St1 采取的动作 At1 对应奖励 Rt

五个附加要素

个体的策略 π(a|s),通常表示为一个 条件 s 概率分布 ,状态 s 时采取动作a 的概率,即 π(a|s)=P(At=a|St=s)动作 a 只由状态决定,π就像游戏攻略一样

采取行动后的价值 vπ(s) 在给定策略π 和状态 s 后,采取一系列行动后奖励累加就是价值,一般是个期望函数。当前作用给出的延时奖励是 Rt+1。 > 所以把价值函数表示为γtRi,这里不关注ss 是怎么变的,只是在改变给出的Ri 上不断求和。我们把当前状态看作原因,它对于后续结果的影响是指数衰弱的。考虑时间因素,如果把 t,取到无限大,对于 v 来说,给了它策略π 和初始状态 S0,它可以一直玩下去,导致 vπ(s)。所以我们对 t 取个均值,这样就不怕时间展开了。 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)

奖励衰减因子 γ 越小越是短视,激进,大胆;越大越是周到,保守,谨慎 **

环境的状态转换模型 Pass,即在状态s 下采取动作 a, 转到下一个状态s 的概率 > 描述了 ss 的过程中 a 所起的作用,本质上,这个东西就是 模型

探索率 ϵϵ 不使用当前状态最优动作去 explore

强化学习的简单示例

ZqaIVx.png

玩一玩这个游戏

环境状态 S 九宫格,每个格子三种状态(1. 没棋子;2. 有 x;3. 有 o),所以模型状态一共有 39

动作 A,9 个格子,相当于 9 个动作选项,有棋子的不能下

R 赢棋奖励 1,其他时候奖励有但是少。先手要低一些??感觉先手更有优势

π 学习得到,见代码

vπ(s)

γ 设置为 0

Pass 选择之后状体确定,无需讨论

ϵ explore

Powered By Valine
v1.5.2